图表神经网络(GNNS)最近已经证明了在各种基于网络的任务中表现出良好的基于​​网络的任务,例如分散控制和资源分配,并为这些任务提供传统上在这方面挑战的计算有效方法。然而,与许多基于神经网络的系统一样,GNN易于在其输入上移动和扰动,其可以包括节点属性和图形结构。为了使它们更有用的真实应用程序,重要的是确保其稳健性后部署。通过控制GNN滤波器的LIPSChitz常数相对于节点属性来激励,我们建议约束GNN过滤器组的频率响应。我们使用连续频率响应约束将该配方扩展到动态图形设置,并通过方案方法解决问题的轻松变体。这允许在采样约束上使用相同的计算上有效的算法,这为PAC-Sique提供了在GNN的稳定性上使用方案优化的结果提供了PAC样式的保证。我们还突出了该设置和GNN稳定性与图形扰动之间的重要联系,并提供了实验结果,证明了我们方法的功效和宽广。
translated by 谷歌翻译
Business documents come in a variety of structures, formats and information needs which makes information extraction a challenging task. Due to these variations, having a document generic model which can work well across all types of documents and for all the use cases seems far-fetched. For document-specific models, we would need customized document-specific labels. We introduce DoSA (Document Specific Automated Annotations), which helps annotators in generating initial annotations automatically using our novel bootstrap approach by leveraging document generic datasets and models. These initial annotations can further be reviewed by a human for correctness. An initial document-specific model can be trained and its inference can be used as feedback for generating more automated annotations. These automated annotations can be reviewed by human-in-the-loop for the correctness and a new improved model can be trained using the current model as pre-trained model before going for the next iteration. In this paper, our scope is limited to Form like documents due to limited availability of generic annotated datasets, but this idea can be extended to a variety of other documents as more datasets are built. An open-source ready-to-use implementation is made available on GitHub https://github.com/neeleshkshukla/DoSA.
translated by 谷歌翻译
我们探索了使用机器学习技术来消除实验光谱中大量$ \ gamma $ ray检测器的响应。分段$ \ gamma $ -Ray总吸收光谱仪(TAS)允许同时测量单个$ \ gamma $ -ray $ -Ray-ray Energy(e $ _ \ gamma $)和总激发能量(E $ _X $)。 TAS检测器数据的分析使E $ _X $和E $ _ \ gamma $数量相关联,因此与使用E $ _x $和E $ _ \ gamma $响应函数相关的技术是复杂的,因此不那么准确。在这项工作中,我们调查了有条件生成的对抗网络(CGAN)同时展开$ e_ {x} $和$ e _ {\ gamma} $ data在TAS检测器中的数据。具体而言,我们采用PIX2PIX CGAN,这是一种基于深度学习进展的生成建模技术,以处理$(e_x,e _ {\ gamma})$矩阵作为图像到图像翻译问题。我们提出了单个 - $ \ gamma $和double-$ \ gamma $ decay cascades的模拟和实验矩阵的结果。我们的模型展示了检测器分辨率限制内的表征功能,其模拟测试用例$ 90 \%$。
translated by 谷歌翻译
简单的随机动量方法被广泛用于机器学习优化,但它们的良好实践表现与文献中没有理论保证的理论保证相矛盾。在这项工作中,我们的目标是通过表明随机重球动量来弥合理论和实践之间的差距,该动力可以解释为具有动量的随机kaczmarz算法,保留了二次优化问题(确定性)重球动量的快速线性速率,至少在使用足够大的批次大小的小型匹配时。该分析依赖于仔细分解动量过渡矩阵,并使用新的光谱范围浓度界限来进行独立随机矩阵的产物。我们提供数值实验,以证明我们的边界相当锐利。
translated by 谷歌翻译
CS中的主要出版物场所进行的同行评审会议务必依赖每篇论文的高素质审阅者。由于这些会议的规模越来越大,它们的工作时间表以及最近明显不诚实的行为激增,现在没有其他选择以自动化的方式进行这种匹配。本文研究了一种新颖的审阅者纸匹配方法,该方法最近在第35届AAAI人工智能会议(AAAI 2021)中部署,此后已被包括ICML 2022,AAAAI 2022和IJCAI 2022的其他会议(全部或部分)采用(完全或部分) 。该方法具有三个主要元素:(1)收集和处理输入数据以识别有问题的匹配并生成审阅者纸得分; (2)制定和解决优化问题,以找到良好的审阅者纸匹配; (3)两阶段的审查过程,将审查资源从可能被拒绝的论文转移到更接近决策界的文件。本文还根据对真实数据的大量事后分析进行了对这些创新的评估,包括与AAAI先前(2020年)迭代中使用的匹配算法进行比较 - 并通过其他数值实验对此进行了补充。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
自我监督可能会在下游任务中提高模型性能。但是,没有理性的方法可以选择产生最适应性最适应的模型的自我监督目标。在这里,我们研究了从可穿戴传感器产生的每日时间序列数据上的这个问题,用于检测流感样疾病(ILI)的开始。我们首先表明,使用自我监督的学习来预测下一天的时间序列值允许我们学习丰富的表示,这可以适应执行准确的ILI预测。其次,我们对三种不同的自我监督目标进行了实证分析,以评估其对伊利预测的适应性。我们的结果表明,在睡眠期间预测第二天休息的心率或床上床提供了更好的ILI预测表示。这些调查结果增加了以前的工作,展示了自我监督学习从活动数据的实际应用,以改善健康预测。
translated by 谷歌翻译
网络世界中的信息安全是令人关切的主要原因,攻击表面的数量显着增加。网络上可用的漏洞,攻击,控件和建议的现有信息提供了代表知识并执行安全分析以减轻一些问题的机会。代表本体形式的安全知识有助于异常检测,威胁情报,推理和相关攻击的相关性归因等。这需要动态和自动丰富信息安全本体。然而,基于自然语言处理和ML模型的现有本体富集算法具有语文提取词,短语和句子的上下文提取问题。这激励了对遍历文本中的依赖路径的顺序深度学习架构的需求,并提取嵌入漏洞,威胁,控件,产品和其他安全相关概念和来自学习的路径表示的实例。在所提出的方法中,部署了在大型DBPedia数据集和Wikipedia语料库上培训的双向LSTMS与Universal Stank编码器一起培训,以丰富基于ISO 27001的信息安全本体。该模型在高性能计算(HPC)环境上进行培训并测试,以处理Wiki文本维度。当从本体论和网页实例的敲除概念测试以验证稳健性时,该方法产生了超过80%的测试精度。
translated by 谷歌翻译
随着机器学习(ML)模型和系统在不同行业的高赌注环境中的增加,保证了部署后的模型的性能变得至关重要。生产中的监测模型是确保其持续性能和可靠性的关键方面。我们展示了Amazon Sagemaker Model Monitor,这是一个完全托管的服务,不断监控亚马逊Sagemaker上托管的机器学习模型的质量。我们的系统实时地自动检测模型中的数据,概念,偏置和特征归因漂移,并提供警报,以便模型所有者可以采取纠正措施,从而保持高质量模型。我们描述了从客户,系统设计和架构获得的关键要求以及用于检测不同类型漂移的方法。此外,我们提供量化评估,然后使用案例,见解和从超过1.5年的生产部署中汲取的经验教训。
translated by 谷歌翻译
分子机器学习的最新进展,特别是深度神经网络,如图形神经网络(GNNS),用于预测结构活动关系(SAR)在计算机辅助药物发现中表达了巨大的潜力。然而,这种深神经网络的适用性受到大量培训数据的限制。为了应对目标任务的有限培训数据,最近已采用对SAR建模的转移学习,从而利用相关任务数据的信息。在这项工作中,与最流行的基于参数的转移学习相比,诸如预先估计的基于流行的传输学习,我们开发了新颖的深度传输学习方法TAC和TAC-FC来利用源域数据并将有用信息传送到目标域。 TAC学习生成可以从一个域概括到另一个域的有效分子特征,并提高目标域中的分类性能。另外,TAC-FC通过掺入新的组分来选择性地学习特征和化合物方识的可转移性来延伸TAC。我们使用来自Pubchem的生物测定筛选数据,并确定了120对生物测定,使得与其无活性化合物相比,每对的活性化合物彼此更类似。总的来说,TAC实现了平均Roc-AUC的最佳性能为0.801;与最佳基线FCN-DMPNA(DT)相比,它显着提高了83%的目标任务的83%的目标任务,平均任务明智的性能提高为7.102%。我们的实验清楚地表明TAC在大量目标任务中对所有基线实现了重大改进。此外,尽管与TAC相比,TAC-FC略微较差的ROC-AUC(0.798 VS 0.801),但与其他方法相比,TAC-FC仍然在PR-AUC和F1方面实现了更好的性能。
translated by 谷歌翻译